更多数学知识

这部分是额外赠送的选修材料，而不是必修课。如果你想知道我们如何推导出基于时间的反向传播算法最终累加方程，这部分将为你答疑解惑。

在之前的视频中，我们讨论了 基于时间的反向传播算法 。我们使用了很多偏导数，每个状态累加了误差变化的贡献。还记得吗？
我们需要一个基于时间的反向传播算法的总体方案时，我只是简单展示了这个方程，没有给出进一步的解释。

提醒一下，调整矩阵的权重时，推导以下两个方程式： W_s 和矩阵 W_x ：

为了总结这个例子，我们要避免证明方程式48和方程式49，而是侧重于整体框架。
观察下列概略图，该图展示了网络的一部分：

上图中，我们有四个状态，从 s_t 开始。
我们首先考虑三个权重矩阵： W_1 、 W_2 和 W_3 作为三个不同的矩阵。

使用链式法则，我们可以推导出以下三个方程式：

在 基于时间的反向传播算法 中我们累加贡献，因此：

因为这个网络表现为 基于时间的展开 ，所以我们明白连接每个状态的权重矩阵是相同的。因此：

W_1 = W_2 = W_3

为了简便，我们把它称作权重矩阵 W 。因此：

W_1 = W_2 = W_3 = W

方程式 52

通过 方程式 52 、 方程式 51 和我们推导出的 方程组 50 ：

方程式 53 总结了基于时间的反向传播算法（BPTT）的数学过程，可以简写为：

请注意，对于 i=t+1 ，我们推导如下：

使用链式法则，我们可以推导出以下方程式（如 方程组 50 所示）。

基于时间的反向传播算法计算的一般推导可以通过以下方式表示：